草庐IT

LLM 评估

全部标签

大语言模型之六- LLM之企业私有化部署架构

2023年上半年,广泛使用API(如OpenAI)来创建基于大型语言模型(LLM)的基础设施,极大地塑造了软件领域。LangChain和LlamaIndex在这一趋势中发挥了重要的作用。2023年下半年LLMOps的运维工作流程中微调(或指令调整)模型门槛降低基本成了业内标准流程,这一趋势的发展主要是由以下几个原因,1.微调的成本急剧降低,配合PEFT等方法,可以在单张T4卡上对Llama2微调,这在以前是难以想象的;2.处理公司内保密数据的能力,3.经过微调后可在某些特定任务中开发超过ChatGPT和GPT-4等模型性能的模型的潜力。LLMOps主要包括:LLM微调,自从LLaMA发布后,指

「不要回答」,数据集来当监听员,评估LLM安全机制就靠它了

这是《三体》一切故事的开端。三体文明以「不要回答」回应叶文洁向宇宙发出了信号,试图阻止两个文明之间进一步的互动和交流。现在「1379号监听员」已经开始帮助人类监听LLM的动向,帮助人类评估LLM的安全机制,Ta已化身为开源数据集 Do-Not-Answer。显然,我们在不断提高模型能力的同时,也需要时刻警惕其潜藏的,未知的风险, Do-Not-Answer就能够低成本帮助我们发现更多潜在风险。论文链接::https://arxiv.org/abs/2308.13387项目链接:https://github.com/Libr-AI/do-not-answer/tree/mainDo-Not-An

上海交大发布大模型双语编程评估基准CodeApex,机器真的开始挑战人类写代码了吗?

打造能自己写代码的机器,这是计算机科学和人工智能先锋者一直在追寻的目标。而随着GPT类大模型的快速发展,这样的目标正在从遥不可及开始变得近在咫尺。大语言模型(LargeLanguageModels)的出现,让模型的编程能力越来越受到研究者的关注。在此态势下,上海交通大学APEX实验室推出了CodeApex--一个专注于评估LLMs的编程理解和代码生成能力的双语基准数据集。在评估大语言模型的编程理解能力上,CodeApex设计了三种类型的选择题:概念理解、常识推理和多跳推理。此外,CodeApex也利用算法问题和相应的测试用例来评估LLMs的代码生成能力。CodeApex总共评估了14个大语言模

Meta发布FACET数据集,用于评估AI公平性

9月4日消息,Meta日前发布了一款名为FACET的开源数据集,旨在帮助研究人员审核计算机视觉模型中的偏差。在一篇博客文章中,Meta详细说明,使用目前的基准测试方法很难评估人工智能的公平性。根据Meta的说法,FACET将通过提供一个大型评估数据集来简化这项任务,研究人员可以使用该数据集来审核几种不同类型的计算机视觉模型。Meta研究人员在博客文章中详细介绍说:“该数据集由32,000张包含50,000人的图像组成,由专家人类注释者标记人口统计属性,如感知的性别表现,感知的年龄组,额外的身体属性,如感知的肤色、发型,以及与人相关的类别,如篮球运动员,医生等。FACET还包含SA-1B中69,

swift - 是否可以缩短对更高级别功能的评估?

我正在寻找一种在评估部分输入序列后停止更高级别函数的方法。考虑在满足特定条件的序列中查找第一个索引时的情况。例如,假设我们正在寻找Int数组a中的第一个位置,其中两个连续值的总和大于100。你可以用一个循环来完成,像这样:funcfirstAbove100(a:[Int])->Int?{ifa.count100{returni}}returnnil}一旦发现感兴趣的位置,循环就会停止。我们可以使用reduce重写这段代码,如下所示:funcfirstAbove100(a:[Int])->Int?{ifa.count100?i:nil)}}但是,这种方法的缺点是reduce一直到a.co

swift - 每次访问计算属性时都会对其进行评估吗?

我有两个关于Swift中计算属性的问题。是否在每次访问计算属性时都对其进行评估?或者它们存储在某个地方以供将来访问?这是什么样的属性(property),因为我无法用谷歌搜索:letnavigationController:UINavigationController={varnavigator=UINavigationController()navigator.navigationBar.translucent=falsereturnnavigator}()每次访问时是否也对其进行评估? 最佳答案 这不是计算属性。letnavig

ios - NSSortDescriptor 评估升序数字(Swift)

应用程序有contentid作为来自json文件的数字字符串:letcontentid:AnyObject!=jsonFeed["contentid"]letstream:Dictionary=["contentId":contentidas!String,]稍后保存到[NSManagedObject]中:vararticles=[NSManagedObject]()letentity=NSEntityDescription.entityForName("Article",inManagedObjectContext:managedContext)letarticle=NSManage

ios - EXC_BAD_ACCESS 在使用它评估 NSExpression 后更新 Swift 字典时

我正在使用一个字典来评估一个表达式,当表达式有变量并且字典实际上被NSExpression使用时,发生了一些事情,我在尝试更新字典时得到EXC_BAD_ACCESS,这只发生在iPhone6中调试时,不在模拟器中,也不在iPhone4S中。letstrExpression="a+b+20"letexp=NSExpression(format:strExpression)self.dictionary=["a":10.0,"b":15.0,"c":25.0]letvalue:AnyObject=exp.expressionValueWithObject(self.dictionary,c

100个人工智能 LLM 大模型基础术语

下面是LLM大模型基础术语库的100个术语及其详细说明和数学公式:1.词汇表(Vocabulary):包含所有可能出现的单词或子词的集合。2.词嵌入(WordEmbedding):将每个单词映射到一个固定长度的向量,以便在模型中能够进行数学运算。3.神经网络(NeuralNetwork):由多个神经元组成的计算模型,可用于学习输入数据之间的复杂关系。4.前馈神经网络(FeedforwardNeuralNetwork):每个神经元仅与下一层的神经元相连的神经网络。5.循环神经网络(RecurrentNeuralNetwork):前一个时间步的输出会被传递给当前时间步的输入,以考虑时间顺序的信息。

java - 我对 Connect Four 的评估函数和 Alpha-beta 修剪的实现不够智能

我正在尝试正确实现连连四游戏AI,但没有利用我的AI的愚蠢行为:它不会阻挡可能导致AI失败的相反玩家模式,它不会采取可能导致AI获胜的行动。我的项目由以下两个GitHub存储库组成:GameAI,ConnectFour,GameAI包含:SortingAlphaBetaPruningGameEnginepackagenet.coderodde.zerosum.ai.impl;importjava.util.ArrayList;importjava.util.Collections;importjava.util.HashMap;importjava.util.List;importja